https://proceedings.mlr.press/v37/menon15.html
Introduction
ラベルがCorruptedとは、Noisy Labelを指すが、PU Learningも含むというように、意地の悪いラベルのついたもので学習するということ。
この論文では以下の2つのことが分かった。
- BERという、偽陰性率(元々PなのにNというラベルに)と偽陽性率(元々NなのにPになる)の平均という指標がある。CorruptedなラベルでBERの最小化をすれば、どれほどラベルがCorruptedしてるかが不明でも問題がない。
- 不明でも問題ないというが、Corruptedしてる割合などがわかれば、おのずと目的関数に補正をかけて学習ができる。
問題設定
- データは。ラベルはだる。
- Cleanなラベル別の分布はである。
- Class Priorは。
- 予測したいのは学習器である。
- 学習器の予測は、学習器と閾値によって、でラベルを予測する。
- 予測した結果について、precision, 偽陽性率、偽陰性率を指標として計算する。
- Regretとは、実際に得られた分類器と理想の分類器の性能の差。
- 学習するためには、より大きく誤った予測には大きな損失を与える必要がある。それは損失関数を使う。
- 条件付きベイズリスク(Conditional Bayes Risk)とは、あるクラスについての確率についての期待値。
- 強適合損失関数(Strongly Proper Composite Loss) 損失関数が凸関数であるだけでなく、ある定数で保証できるものらしい。
